1 Objectifs

Dans ce fichier, les analyses cantonales de la BDAT sont analysées afin appréhender la distribution statistique et géographique des teneurs en carbone organique regroupées en 5 périodes : 1990-1994, 1995-1999, 2000-2004, 2005-2009 et 2010-2014. Les résultats présentés font suite à différents scripts de préparations de données dont la chaîne de traitements générale est consultable à cette adresse

Ici, on fera référence au travail en préambule dans (FS_traitements_methodBDAT.Rmd) pour expliquer que l’on se base sur les analyses corgox et sur les 4 périodes

Globalement, le travail est organisé de la manière suivante :

  • Statistiques descriptives : Analyse des histogrammes de fréquence et tests statistiques pour chacune des périodes de temps analysées,
  • Représentation cartographique : Plusieurs cartes sont proposées pour visualiser la répartition géographiques des données
  • Analyse des facteurs explicatifs : Analyse de la répartition des teneurs en lien avec des facteurs explicatifs de types anthropiques et naturels.

2 Analyse des teneurs en carbone organique par période

Cette première étape a pour but d’analyser les différences des teneurs en carbone organique pour chacune des périodes de temps analysées. Celles-ci comportent les années 1990-1994;1995-1999;2000-2004;2005-2009 et 2010-2014. Les statistiques descriptives et les courbes de fréquences cumulées sont présentées dans un premier temps. Dans un second temps, des boxplots accompagnés de tests de « significacité » des différences entre les périodes sont mis en oeuvre. Au cours de ces travaux, le regard est porté sur l’emprise nationale mais avec plusieurs niveaux de stratification (régions administratives, zonages climatiques, principales région d’élevage).

2.1 Analyse à l’échelle de la France

2.1.1 Cartographie des teneurs en carbone organique

Bien que l’hétérogénéité spatiale et temporelle des analyses de la BDAT soient assez importante (certaines zones souffrent d’un manque de données), la cartographie des teneurs en carbone organique (ci-dessous) montre une distribution spatiale organisée et globalement similaire pour les différentes périodes analysées. De façon générale, cette organisation suit la lithologie du pays avec de fortes teneurs en carbone organique présentes dans les zones de socles et de piemonds et des valeurs plus faibles dans les principaux bassins sédimentaires (parisien et aquitain).

D’autre part, ces cartes montrent l’importante hétérogénéité spatio-temporelle des effectifs de la BDAT.

2.1.2 Statistiques descriptives

La figure 1 présente les courbes de fréquences cumulées des teneurs en carbone organique distribuées pour les 4 périodes identifiées. Les courbes de fréquences des 4 périodes présentent la même forme en “S” et s’individualisent juste avant le plateau, présentant une différence affectant les sols riches en teneurs organiques (entre 17 et 45 g/kg). Sur cette zone (figure à droite), la figure montre un décalage des courbes des périodes 2000-2004, 2005-2009 et 2010-2014 vers des valeurs plus faibles. Parmi ces 3 périodes, la période 2005-2009 est celle qui se décale le plus vers des teneurs plus faible tandis que la période 2010-2014 se rapproche des valeurs de 1990-1994 et 1995-1999, présentant ainsi une inversion de la tendance observée. Ces trois périodes se distinguent clairement des périodes de 1990-1994 et 1995-1999 qui sont rapprochées.

Ces observations mettent en évidence une diminution des teneurs en carbone entre les périodes 1990-1999 et 2000-2009 et une légère augmentation pour la période 2010-2014.

La distribution des teneurs en carbone organique par période est présentée dans la figure 2 et les principales statistiques sont présentées dans le tableau ci-dessus. La tendance de diminution des teneurs observée dans la figure 1 est également constatée dans ces deux éléments. La période 2000-2004 montre la valeur médiane la plus faible avec une valeur de 13.52 g/kg. Les valeurs les plus importantes sont observées pour les périodes 1990-1994 et 1995-1999 avec respectivement des teneurs en carbone organique de 14. En terme de tendance, on remarque une augmentation des teneurs pour la période 2010-2014 avec une médiane des valeurs de 14. Ces évolutions sont très légèrement marquées sur la figure 2 où l’évolution moyenne des teneurs en carbone organique baisse légèrement après la période 1995-1999.

Statistiques descriptives des teneurs en carbone organique pour les différentes périodes
  Min. 1st Qu. Median Mean 3rd Qu. Max.
9599 5.23 11.05 14 15.51 18 82.36
0004 4.9 10.67 13.52 15.05 17.44 90.23
0509 4.1 10.8 13.7 15.12 17.57 69.2
1014 5.2 11 14 15.33 17.8 53.2
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 2
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 1
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 0
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 1

Les résultats du test de Wilcoxon présentés ci-dessous montrent que les différences globales entre les périodes sont significatives pour [1990-1994 et 2000-2004], [1995-1999 et 2000-2004], [1995-1999 et 2005-2009] et [2000-2004 et 2010-2014]. Ces résulats sont à prendre avec mesure, car réalisés sur l’ensemble des cantons. Ils confirment néanmoins les tendances observées sur les courbes de fréquences cumulées (voir figure 1).

pairwise.wilcox.test(melted.bdat[,"value"], melted.bdat[,"annees"])
## 
##  Pairwise comparisons using Wilcoxon rank sum test 
## 
## data:  melted.bdat[, "value"] and melted.bdat[, "annees"] 
## 
##      9599   0004   0509  
## 0004 0.0017 -      -     
## 0509 0.0348 0.5975 -     
## 1014 0.7060 0.0043 0.0678
## 
## P value adjustment method: holm

2.2 Analyse des facteurs contrôlant la distribution spatiale

Dans cette partie, les facteurs contrôlant la distribution spatiale des teneurs en carbone organique des différentes périodes sont analysés. Le travail est dans un premier porté par une analyse en composante principale pour identifier les relations entre les facteurs potentiellement explicatif et dans un deuxième temps par une modélisation avec la méthode des arbres de régression boostés pour affiner l’analyser et classer les variables explicatives par ordre d’importance (contribution).

2.2.1 Analyse en composante principale

2.2.1.1 Test avec les données climatiques

2.2.1.2 Test avec les données anthropiques

La figure 3 présente la distribution des variables sur les axes 1 et 2 de l’ACP. Environ 71 pourcent de l’information est contenu dans ces deux premiers axes. Description de la distribution des variables dans l’espace des ACP :

  • L’axe 1 représente 55% de l’information. Cet axe est fortement associé à l’occupation du sol. Les différentes variables associées aux grandes cultures et à l’élevage sont bien représentées et ont une forte contribution dans la variance du jeu de données. Les statistiques liées à la part d’STH, de prairies, de SFP et d’OTEX polyculture élevage sont corrélées et sont opposées aux variables associées aux grandes cultures (proportion des surfaces de céréales/SAU et OTEX grandes cultures).
  • L’axe 2 représente 16% de l’information. La correlation avec les variables est moins nette que l’axe 1. Les variables de type climat et topographie sont légèrement correlées à cet axe. D’autres variables d’occupation du sol sont associées à l’axe 2. Celles-ci concernent les zones agricoles hétérogènes (\(clc_25_90\)), les zones de maïs fourrage et les zones qui ont une densité importante en UGBTA. Logiquement, ces deux dernière variables sont liées.

  • Plusieurs variables ont un faible impact et seront écartées par la suite :
  • Pour l’occupation du sol : les variables liées à Corine Land Cover
  • Pour le climat : jpluie_juillet, ttemp_an, jchauds_an (voir peut être aussi hpluie_an)

Dans cet espace, la teneur en carbone organique initiale (période 90-94) est moyennement représentée (-50% de contribution). Cette variable est directement opposée aux variables climatiques ce qui met en valeur l’importance de ce facteur dans la distribution spatiale des teneurs à l’échelle de la France. Dans une moindre mesure, la teneur en CO est correlée aux surfaces fourragères principales et aux UGBTA.

Dans la figure 4, les échantillons sont rajoutés dans l’espace de correlation des variables. La représentation des échantillons classés par teneurs en carbone organique permet de visualiser le lien entre les variables et …(mal dit).

2.2.2 Modélisation avec GBM

Bien spécifier que GBM est utilisé juste pour appréhender l’importance et le comportement des variables explicatives.

L’application de ces modèles demande une bonne configuration de leurs paramètres. Pour déterminer la meilleur combinaison de paramètres, la fonction train du package caret est utilisée.

  1. Boosted regression tree (BRT) Les modèles d’arbres de régression boostés sont connus pour améliorer la précision de prédiction par rapport aux simples arbres de régression. L’algo permet d’ajuster un modèle en fonction d’un processus itératif. A chaque itération, les arbres de régresssions sont ajustés et montés sur une fraction de l’ensemble des données échantillongées. Les principaux paramètres d’un modèle sont :
  2. le taux d’apprentissage (skrinkage) : il correspond à une constante déterminant l’influence de la combinaison individuelle des arbres qui forme le forme le modèle final. Lorsque ce coefficient est faible, le modèle est très spécialisé et est difficilement applicable sur un autre jeu de données.
  3. la taille des arbres (interaction depth) correspond à la taille des arbres de régression. Lorsque la taille est égale à 1, chaque arbre est constitué d’un seul noeud, on modélise l’effet d’une seule variable prédictive. Ainsi, le modèle final additionne séparément l’effet prédictif des variables et les intéractions des variables ne sont pas explicitement prise en compte. Lorsque la taille des arbres est supérieur à 1, chaque arbre de régression individuelle modélise l’interaction d’au moins deux variables prédictives. Celà permet l’utilisation de modèle prenant en compte les intéractions d’ordre i entre les variables prédictives. La capacité de représenter les interactions entre les variables prédictives sans connaissance a priori est l’un des avantages des arbres de régression.
  4. le nombre d’arbre (n.tree)correspond au nombre d’arbre pour l’ajustement. C’est l’équivalent du nombre d’itérations.

Les principales variables explicatives de la distribution des teneurs en carbone organique sont présentées figure 5. Les facteurs les plus importants sont d’ordre climatiques et topographiques. Ces résultats confirment les premières observations de l’ACP. Les variables d’occupation du sol ont une influence secondaire et celles qui agissent significativement sont la proportion des exploitations ayant une OTEX de type élevage en 1988, la proportion de surface fourragère principale en 1988 et les proportions de maïs fourrage dans la SAU pour les années 1988, 1979 et 1970. Parmis ces variables d’occupation du sol, l’années 1988 explique bien les teneurs en carbone organique pour la période 1995-1999.

En conclusion Ces résultats montrent le caractère multifactoriel de la répartition des teneurs en carbone organique à l’échelle national. Pour évaluer l’effet de l’évolution de l’occupation du sol sur les teneurs en C, il est nécessaire de travailler sur des zones géographiques contextes topographiques et climatiques homogènes.

Ci-dessous, commenter les résultats de la stratification avec les types de climat

Ci-dessous, commenter les résultats de la stratification avec les principales régions d’élevage

Ci-dessous, commenter les résultats de la stratification avec les types de climat